서론
1.
연구의 필요성 및 목적
프로스포츠 경기는 예측 불가성으로 인해 흔히 ‘각본 없는 드라마’라고 불린다. 프로스포츠 리그의 단위에서 경쟁하는 팀의 수가 단일 정규리그에 정해져 있어 반복적으로 경기를 펼치는 프로스포츠에서는 시즌 중 끊임없이 발생할 수 있는 다양한 변수와 경쟁팀 간 상성, 감독의 전술적 변화 등의 예측 불확실성으로 인해 하위권 팀일지라도 리그의 상위권 팀을 상대로 승리를 거두는 이변이 발생할 수 있다(Buraimo, Forrest, & Simmons, 2007).
예를 들어, 한국프로농구 리그에서 최근 4시즌 연속 최하위를 기록 중인 삼성 썬더스도 2025년 3월 13일 현재 기준으로 1위 팀인 SK 나이츠에 1승 4패로 승리를 거두고 있으며, 한국프로야구에서는 2024시즌 최하위 팀인 키움 히어로즈가 정규리그 1위 팀이자 코리안시리즈 우승팀인 기아 타이거즈에 5승 11패의 성적을 거둔 바 있다. 다시 말하면, 프로스포츠 경기는 그 본질에서 객관적인 전력 차이가 크게 나는 두 팀의 경기일지라도 어느 팀이 확실하게 승리할지를 장담하기 힘든 속성을 지닌다.
프로스포츠 팬들은 이러한 스포츠의 불확실성에 열광하면서도, 동시에 이 각본 없는 드라마의 최종 경기 결과를 예측하고자 하는 욕구를 내재하고 있다. 이러한 욕구를 충족하기 위해 프로스포츠 팬들은 경기 시작 전 전문가들이 제시하는 분석을 찾아보기도 하고, 온라인 커뮤니티에서 자신의 의견을 공유하며 소통의 장을 만들기도 한다. 일부 프로스포츠 팬이나 스포츠를 사랑하는 대중은 더 나아가 적극적으로 스포츠베팅에 참여하기도 한다(Etuk, Xu, Abarbanel, Potenza, & Kraus, 2022; Killick & Griffiths, 2021; Lamont & Hing, 2020; Lee, Chiu, & Won, 2024; Lee, Chung, & Bernhard, 2014; Song, Byon, & Pedersen, 2024).
이러한 맥락에서 스포츠 팬의 욕구 충족과 스포츠 산업적 측면에서의 혁신 및 성장 가속화를 위해 일부 스포츠 종목의 현장에서는 인공지능(AI)을 활용한 경기 결과 예측 서비스를 제공하기도 한다. 예를 들어, FOX Sports는 메이저리그 경기의 승리 확률을, Amazon Prime은 프리미어리그 경기의 승부 예측 데이터를 그래픽으로 제공하여 팬의 흥미를 유발하고 몰입도를 높이고자 노력한다(Arth & Billings, 2021; Chmait & Westerbeek, 2021; Shin, 2024). 국내 사례의 경우, 국민체육진흥공단은 한국스포츠경영전략연구원이 개발한 경륜과 경정 경주 경기 예측 서비스인 “AI Pick” 솔루션을 팬과 베팅고객들에게 제공함으로써 해당 종목의 산업적 가치를 높이기도 한다(한국스포츠경영전략연구원, 2024).
학술 분야에서도 인공지능을 적용한 경기 결과 예측을 위한 노력은 폭발적으로 늘어나고 있다. 프로농구, 프로야구, 프로축구, 프로골프 등 대중적으로 친숙한 프로스포츠는 물론, 경륜이나 경정과 같은 비교적 생소한 스포츠 종목 분야에서도 경기 결과 예측 관련 연구가 이루어지고 있다(김주학, 조선미, 강지연, 2022; 김지응, 박종철, 김태규, 이희화, 안지환, 2021; 김필수, 2023; 김필수, 전성삼, 이상현, 2023a; 최형준, 2022; 예원진, 이성노, 2022). 하지만, 경기 결과 예측 관련 선행연구를 분석할 때, 다음과 같은 한계점을 발견할 수 있다.
첫째, 일부 선행연구에서는 ‘예측(prediction)’에 대한 개념의 정립에 혼선을 겪는 것으로 보인다. 당연하게도 예측이란, 독립변수의 발생 시점이 종속변수보다 앞선 경우에만 성립된다(Bunker & Susnjak, 2022; Bunker & Thabtah, 2019; Shmueli, & Tafti, 2023). 독립변수가 종속변수와 같은 시점에 수집되는 경우, 추정(estimation) 혹은 설명(explanation)이라는 용어를 사용하는 것이 더욱 타당하다고 볼 수 있다. 무엇보다 스포츠 경기가 종료된 후 나타나는 다양한 변수를 모델에 투입하는 방식은 설명을 위한 분석(explanatory analysis) 혹은 사후분석(post-hoc analysis)에 해당하며, 예측(predictive modeling)과는 분명히 구분된다. 이는 스포츠 애널리틱스(sports analytics) 분야에서 인공지능의 적용이 점차 일반화됨에 따라 보고되는 예측 정확도(predictive accuracy)라는 용어가 이해에 혼선을 가져오기도 하며 사후분석의 결과가 ‘예측’으로 혼용되기도 한다(Lipton, 2018; Ribeiro, Singh, & Guestrin, 2016).
인공지능을 적용한 경기 예측 연구 분야에서 예측을 위한 분석과 사후적 설명을 위한 분석 간에는 설명력의 차이가 존재할 수밖에 없다. 선행연구의 실증결과를 바탕으로 볼 때, 예측을 위한 분석의 결과로 나타나는 예측 정확도는 통상 50~70% 수준으로 나타나지만(김필수, 이상현, 2023c; 김필수, 이상현, 서재현, 2024; 김필수, 이상현, 전성삼, 2023; 김필수, 이상현, 전성삼, 2024a; 김필수, 전성삼, 이상현, 2023b), 사후분석의 정확도는 90% 이상이 되는 경우도 존재한다(범쟁쟁, 이성노, 2023; 예원진, 이태현, 이성노, 2022; 예원진, 이성노, 2022; 조선미, 김주학, 강지연, 김상균, 2023; 최형준, 2022). 이러한 이유로 간혹 스포츠 예측 연구에서도 사후분석의 기준을 요구하는 준거 기준점을 제시하는 경우가 있지만, 본질에서 이러한 혼선은 스포츠 분야의 예측 연구의 발전에 부정적인 영향을 미칠 수 있다. 이를 체계적으로 해결하기 위해서는 학문적 기반의 표준화와 개념적 정립이 중요하다고 판단된다. 이상의 내용을 요약하면 <표 1>과 같다.
무엇보다 학술적 연구는 장기적으로 현장의 현안과 문제를 해결하는 데 도움이 될 수 있는 실용성도 필요하다. 스포츠 경기 결과 예측에 대한 욕구를 내재한 팬과 이러한 욕구를 만족하는 서비스를 구현하여 제공하고자 하는 이해관계자의 주체가 기대하는 스포츠 경기 결과 “예측” 연구는 사후 발생하는 경기지표를 활용한 “설명” 연구와는 현격히 차별된다. 이 둘 간에는 단순히 변수 수집의 시차뿐만 아니라, 연구설계와 디자인에서부터의 분명한 차이점이 존재한다. 따라서, 우리나라 스포츠의 학술적 발전을 넘어 현장의 현안을 학술 연구 간 연결하는 측면에서의 시너지를 위해서도 “사전 예측”과 사후분석“ 간의 명확한 구분이 필요하다고 본다. 이에 따른 인공지능을 적용하는 스포츠 경기 예측의 사전적 의미와 대중의 기대를 충족하는 예측 연구를 수행하고자 하는 학계의 노력이 필요해 보인다.
둘째, 프로스포츠 경기 결과 예측을 위해 체계적인 변수 선정의 노력이 필요하다. 현실적으로 현재 스포츠 경기 결과 예측 연구 대부분은 해당 종목 관련 홈페이지에 구축된 과거 경기 기록을 거의 그대로 투입하여 실증되고 있다. 프로농구연맹(KBL)이나 한국프로축구연맹(K리그)에서 운영하는 농구나 축구 종목을 예로 들면 보통 해당 팀의 직전 경기나 과거 경기의 누적 경기 기록이 홈페이지에 게시되어 있다. 이러한 경기지표들은 보통 해당 팀의 전반적 전력의 단면을 확인하기에 적절할 수 있지만, 팀의 전반적인 전력을 나타내는 축적된 데이터를 그대로 알고리즘에 투입하는 접근법은 스포츠의 맥락과 현장의 복잡성을 과소평가하는 한계를 지닌다.
전술하였듯이, 스포츠는 약팀이 강팀과의 대결에서 승리하는 때도 비일비재하게 나타난다고 볼 수 있다. 하나의 예를 들어, 한국프로야구의 경우 2024시즌 최하위 팀인 키움 히어로즈가 무려 0.403의 정규리그 승률을 기록한 사실을 반추해보면, 프로스포츠팀 간 역량 격차와 실제 경기 결과 간에는 선형적 관계가 아닌 비선형적인 관계가 존재한다는 것을 알 수 있다. 즉, 프로스포츠팀 간의 단순 전력의 단면적 비교를 넘어 경기력 변동성(variability)과 상황적 요인(situational context)의 다양한 상호작용을 반영하지 않는다면, 스포츠에 존재하는 다차원적 요인과 입체적인 측면이 간과될 수 있어서 경기 결과를 정확히 예측하는 것이 어려워지며 그 의의를 찾기가 힘들어진다(김필수, 이상현, 2023d; Gonçalves, Coutinho, Folgado, Ric, Malarranha, & Sampaio, 2021). 따라서, 더욱 정밀한 스포츠 경기 결과 예측을 위해서는 단순히 각 팀의 과거 평균 혹은 축적된 전력을 대변하는 변수들을 알고리즘에 그대로 투입하는 것을 넘어서는 체계적인 연구설계와 디자인이 전제되어야 한다고 본다. 중요한 것은 각 팀이 경기를 앞두고 처한 상황을 알 수 있는 변수를 생성하여 투입하는 것을 물론, 투입한 변수의 학습 효과를 극대화하기 위한 데이터 정렬에 대한 세밀한 고찰이 필요하다.
셋째, 스포츠 경기 기록 활용의 측면에서 단순히 존재하는 변수를 최대한 투입하는 귀납적 접근을 넘어 이론적 측면에서나 실무적으로 설명 또는 해석 가능한 방식으로 변수를 구성하려는 노력이 필수적이다. 전통적 통계 분석과 인공지능 기반 데이터 분석의 가장 큰 차이는, 전자가 모수적 가정에 기반하여 선형 또는 비선형 회귀 모델 내에서 종속변수의 분산을 독립변수로 설명하는 데 중점을 두지만, 후자는 독립변수와 종속변수 간의 관계를 데이터 기반으로 유연하게 탐색한다는 데 있다. 이러한 차이로 전통적 통계 분석에 익숙한 연구자들은 연역적(deductive) 접근을 중시하는 반면, 인공지능 기반 분석은 귀납적(inductive) 접근이 중시되는 경향이 있다 (Breiman, 2001; Mitchell, 1997).
그러나 인공지능 기반 분석에서 귀납적 접근이 중요하다고 하여 단순히 존재하는 변수를 그대로 모델화하여 투입하고 연구자의 역할이 알고리즘을 작동시키는 데에 국한된다는 것을 의미하지는 않는다. 오히려 연구설계와 디자인 및 데이터 입력 단계에서 연구자의 판단이 필수적으로 개입되며, 변수의 생성, 데이터 구성 방식, 모델 선택 등은 명시적 또는 암묵적으로 연구자가 보유한 이론적·철학적 틀에 근거하여 이루어진다. 즉, 분석 과정에서 인과관계를 명확히 설명하기 어려운 상황에서도, 스포츠 경기 결과 예측과 같은 모델링 단계에서는 스포츠의 맥락과 인간 및 조직의 작동 원리를 반영할 수 있는 해석과 개입이 여전히 중요하다 (Baio & Blangiardo, 2010; Doshi-Velez & Kim, 2017; Lipton, 2018; Lundberg & Lee, 2017; Rudin, 2019).
따라서, 스포츠 경기 예측의 맥락에서 선수와 감독, 팀과 조직의 작동 원리, 경기력 및 성과 등의 현상을 체계적으로 설명할 수 있는 이론에 기반하여 인공지능 알고리즘 및 변수의 구성을 설계하고 디자인하는 노력이 필수적이다. 본 연구는 인공지능을 활용한 스포츠 경기 결과 예측 분야 선행연구의 한계점을 극복하기 위해 다음과 같은 연구목적을 지닌다. 먼저 스포츠 경기 결과 예측을 위해 전술된 바와 같이 해당 경기가 발생하기 전 수집할 수 있는 변수만을 인공지능 알고리즘에 투입하여 학술적⋅통상적 개념과 정의에 부합하는 방식으로 분석을 진행하고자 한다.
둘째, 현존하는 경기지표를 넘어, 현재 기록화되어 있지 않은 프로스포츠팀의 당일 경기력에 영향을 미칠 수 있는 원정경기 일정이나 이동 거리 등과 같은 경기 시작 전 확인 가능한 상황 특이적(context-specific) 외부적 요인을 고려하고자 한다. 아울러, 외국인 선수 출전 여부와 같이 당일의 전력에 영향을 줄 수 있는 데이터를 자체적으로 추적하여 내재화하는 한편 변수화하여 투입하고 실증분석을 진행하고자 한다. 이는 경기가 발생하는 시점에서의 각 팀의 평균적인 전력을 넘어 해당 경기에 각 팀이 내재한 자원 수준을 더 정밀하게 반영할 수 있다는 점에서 의의를 지닌다.
셋째, 자원기반이론과 직무 요구-자원 이론(Job demands-resources model; Bakker & Demerouti, 2014; Barney, 1991)을 활용하여 프로스포츠팀의 승패를 결정짓는 다양한 변수에 관한 역할을 이론에 근거하여 설명하고, 본 연구변수 선정의 타당성을 확보하고자 한다. 이는 경기 결과 예측 모델의 이론적 기초를 강화함과 동시에, 감독이나 선수 등 개인적 관점에서의 자원 활용과 조직 및 팀의 경기력 등의 경기성과 간의 관계를 보다 체계적으로 이해하는 데 의의가 있을 것으로 보인다.
본 연구에서의 이러한 실증 노력은 단순히 인공지능 기반 스포츠 경기 결과의 예측 정확도 향상 연구의 고도화를 넘어 팬들의 몰입과 관심을 높이는 근본적인 스포츠 서비스 및 솔루션 설계의 이론적 근거를 제공하는 기초 자료로서의 큰 의미가 있다고 볼 수 있다. 이를 위해 본 연구에서는 앞서 설정한 목표에 따라 한국의 인기 스포츠인 한국프로농구(KBL)의 경기를 예측함으로써 스포츠 애널리틱스 연구의 발전에 기여도를 높이고자 한다.
2.
이론적 배경
1)
스포츠 애널리틱스와 경기 결과 예측
인공지능 기술의 보편화는 스포츠 애널리틱스 영역에서 연구 패러다임의 대전환을 주도하고 있다. 스포츠 애널리틱스는 스포츠 데이터를 기반으로 경기 및 조직 성과를 최적화하는 의사결정 과정을 의미하며, 이를 경기 데이터 분석(on-field analytics)과 경기 외적 데이터 분석(off-field analytics)으로 구분할 수 있다(김필수, 이상현, 2023b; 2024). 인공지능이 스포츠 애널리틱스의 하위 범주에 포함되지는 않지만, 빠르게 데이터를 처리하여 최적화된 의사결정을 이끌어 결과를 도출해야 하는 점에서 활용도가 높다. 전통적으로 프로스포츠 조직은 팬들에게 스포츠 스타와 팀을 활용한 마케팅이나 팬 개인의 특성을 고려한 서비스 제공과 같은 경기 외적 데이터 분석에 중요성을 고려하여 발전해왔다(김필수, 이상현, 2024; Morgulev, Azar, & Lidor, 2018; Mumcu, 2016; Watanabe, Shapiro, & Drayer, 2021).
하지만, 최근에는 경기 데이터 분석을 통해 팬의 몰입도를 높이고자 하는 시도가 증가하고 있다. 예를 들어, NBA는 NBAstuffer와 같은 플랫폼을 통해 팬들이 직접 데이터 분석에 참여할 기회를 제공하고, 다양한 2차 경기지표(advanced metrics)를 개발하여 팬의 경기 이해도를 높이는 데 성공하여 스포츠팬이 경기에 더 많은 관심과 애정을 가질 수 있도록 유도하고 있다. 이와 같은 노력을 통해 마이클 조던(Michael Jordan)의 은퇴 이후 하락한 리그의 인기를 다시 끌어올리는 중요한 촉매 요인으로 작용하였다(Abeza, O’Reilly, Nadeau, & Abdourazakou, 2023). 프로농구를 포함하여 다른 프로스포츠 리그 역시 PER(player efficiency rating: 선수효율지수), xG(expected goals: 기대 득점), WAR (wins above replacement: 대체 선수대비 승리기여도)과 같은 다양한 2차 경기지표를 개발하여 팬들에게 공개함으로써 이들의 경기 몰입도를 한층 강화하고 있다(Coles, 2024; Obi et al., 2024; Wang & Song, 2023).
인공지능 기술을 활용한 경기 예측은 팬들의 몰입을 증대시키기 위한 주요 전략으로 자리 잡았다. 미국프로야구(MLB)는 방송사와 협력하여 Statcast AI를 통해 승리 확률을 제공하며, 이를 통해 팬들이 경기를 예측의 관점에서 즐길 수 있도록 유도하며 스포츠베팅 등의 다른 유인의 결과로 경기에 스포츠팬 몰입을 강화하고 있다. 국내에서도 국민체육진흥공단이 인공지능을 적용한 경륜 승자 예측 서비스인 AI Pick을 도입해 경륜 이미지 쇄신과 매출 상승이라는 긍정적 성과를 거두었다는 것이 보도되어 그 실효성이 검증되었다. 2024년 문화체육관광부 혁신 포럼의 발표 자료에 따르면, 국민체육진흥공단은 AI Pick을 도입한 이후 매출 상승과 신규고객 유입이 나타났다는 것을 보고하였다(한국스포츠경영전략연구원, 2024).
이러한 흐름으로 미루어볼 때, 이제 국민의 사랑과 지지를 받는 프로스포츠에서 인공지능을 활용한 스포츠 경기 결과 예측 서비스의 제공은 더는 미룰 수 없는 전략적인 주요 과제가 되었다고 볼 수 있다. 하지만, 아직 스포츠팬이 원하는 수준에서의 경기 결과 예측 서비스를 도입하기 위해서는 극복해야 할 문제가 많이 존재하는 것으로 보인다. 특히, 이를 위한 학문적 기반이 부족한 실정이다. 최근 스포츠 애널리틱스의 학문적 구조(framework) 내에서 이론을 기반으로 스포츠 데이터를 새롭게 구축하고 분석하여 경기 결과를 예측하고자 하는 시도가 존재하지만, 이는 소수의 체계적인 선행연구를 통해서만 이루어지고 있는 것으로 보인다.
앞서 소개한 일부 사례에서 확인할 수 있듯이, 충분한 분석 근거와 높은 예측 정확도가 수반되는 스포츠 경기 결과 예측 서비스는 스포츠팬의 경기에 관한 관심도와 몰입도를 높일 수 있다는 점에서 꼭 필요한 과제라고 할 수 있다. 이러한 측면에서 국내 프로스포츠 경기 결과 예측 연구가 스포츠산업의 발전을 위해 다양한 종목에서 수행될 필요성이 존재한다(김필수, 이상현, 서재현, 2024; 김필수, 이상현, 전성삼, 2024b; 김필수, 이상현, 전성삼, 2025).
2)
프로스포츠팀의 자원과 성과
프로스포츠 구단의 운영 목적은 다각적으로 논의될 수 있으나, 프로스포츠팀의 감독과 코치진 및 선수나 현장 관계자들의 목표는 명확하다고 볼 수 있다. 이는 당면한 단일 경기에서 최선을 다해 승리하려는 스포츠정신의 구현과 이를 축적하여 해당 시즌 내 높은 승률(최대한 많은 승수)을 거두어 우승하기 위해 노력하는 것이다. 스포츠 과학 분야의 많은 선행연구는 프로스포츠팀의 어떤 속성이 팀 승리의 결정요인으로 작용하는지 실증하기 위한 고찰을 시도하였다(김필수, 이상현, 2022a; 2022b; 2023d; 김필수, 정태성, 이상범, 이상현, 2023; Kim, 2022). 대다수의 연구는 재정적 뒷받침, 우수한 감독이나 선수단 등과 같이 프로스포츠팀이 내재한 자원의 우수성과 팀의 성과 간의 유의한 관계를 증명하였다. 한국프로야구에 등장한 “DTD(Down Team Down)”라는 신조어는, 팬들도 팀이 내재한 자원이 성과의 중요한 선행요인이 된다는 것을 보편적으로 인식하는 사례를 보여준다(김필수, 이상현, 2023a; Fort & Quirk, 2004; Szymanski & Késenne, 2010).
본 연구에서는 프로스포츠팀이 내재한 자원(resources)과 핵심 역량(core competencies)의 적용을 자원기반이론(Barney, 1991; Barney & Arikan, 2005; Kim, 2022)과 직무 요구-자원 이론(Bakker & Demerouti, 2014; Lee, 2024)의 통합적 적용을 통해 설명하고자 한다. 프로스포츠팀이라는 조직을 하나의 분석단위로 규명하는 자원기반이론과 조직 내의 개인과 집단을 분석단위로 가정하는 직무 요구-자원 이론을 통합하기 위한 노력은 스포츠 경기 결과 예측을 위한 인공지능 모델 개발 및 효용성 검증을 위한 이론적 틀 마련을 위해서도 큰 의의가 있다고 본다.
자원기반이론은 조직의 핵심 역량(core competencies)이 프로스포츠팀이 리그에서의 경쟁 우위의 원천이 된다는 것을 설명한다. 핵심 역량이란 조직이 내재하고 있는 가치 있고, 희소하며, 대체 불가하고, 모방하기 어려운 속성을 지닌 자원을 의미한다(Barney, 1991; Barney, Ketchen Jr, & Wright, 2021; Kim, 2022). 자원기반이론은 경영학에 뿌리를 두고 있지만, 최근 프로스포츠팀의 성과를 설명하는 중요한 이론으로 주목받고 있다(Kim, 2022; Kim, & Makadok, 2023; Smart & Wolfe, 2003; Wolfe, Wright, & Smart, 2006). 일례로, 한국프로야구팀의 시즌 승률 결정요인에 관한 실증분석의 경우 자원적 속성은 감독 특성, 전반적인 전력 수준, 대체 불가 선수로 나눌 수 있으며, 각각은 팀의 성적에 독립적인 추가 설명력(marginal effects)을 지닌다(김필수, 이상현, 2022a).
본 연구의 종속변수는 시즌 운영 결과로 나타나는 성과가 아닌 개별 경기의 승패라는 점에서 앞서 기술한 연구(김필수, 이상현, 2022a)에서 설정한 스포츠팀의 자원이나 핵심 역량과는 카테고리의 차이가 존재한다. 예를 들어, 감독의 특성은 시즌 전반의 성적에는 중요한 변수로 작용할 수 있겠지만, 개별 경기의 승패에 늘 유의한 영향을 미친다고 보기 힘들다. 따라서, 경기 결과의 예측을 위해서는 프로스포츠팀 단위의 전력 수준과 대체 불가 선수의 역량을 주요 변수로 생각할 수 있다. 이러한 측면에서 고찰할 때, 프로스포츠팀의 전력은 리그 전체의 전력보다 해당 시합에서 맞붙는 두 팀 간의 자원 격차에서 비롯되는 전력 차이를 중심으로 팀 전반의 전력을 정의하는 것이 적합하다.
특히, 외국인 선수의 출전 여부로 인해 발생하는 전력의 격차는 중요하게 다루어져야 한다. 학술적으로는 물론, 현장 관계자들도 외국인 선수가 팀의 승패를 좌우하는 중요한 자원이라는 것에 대부분 동의하는 것으로 보인다(김연, 조정형, 2021; 유인영, 2003; Kim, 2022). 따라서, 스포츠 경기 결과 예측 모델에 경기에 임하는 양 팀 간의 전력 격차와 외국인 선수의 결장 여부에 따라 경기에 임하는 팀이 어떤 수준의 전력을 활용할 수 있는가를 변수로 투입하는 것은 본 연구에서 활용하는 자원기반이론과도 부합한다.
하지만, 프로스포츠팀은 비교적 적은 수의 구성원으로 이루어진다는 점에서 개별 구성원이 조직에 미치는 영향력은 비교적 크다. 프로스포츠팀이 하나의 조직이라는 점에서 자원기반이론이 조직 전반의 성과를 설명하는데 유효하지만, 개인의 동기 수준과 성과를 설명하기 위한 이론적 병행의 노력이 필요하다. 선수 개인은 제한된 합리성(Simon, 1990)을 지니며, 개인의 속성보다 환경에 더 많은 영향을 받기도 한다(Bandura & Walters, 1977). 또한, 선수 개인에게 주어진 특정한 계기(trigger)로 인해 인지하지 못한 행동이 발현되기도 한다(Skinner, 1965). 따라서, 시즌 전반의 성과가 아닌 개별 경기의 승패를 예측하기 위해서는 프로스포츠팀의 선수와 환경을 개별적 분석단위로 상정하고 이를 반영할 수 있는 변수를 알고리즘에 투입하는 것이 중요하다.
이러한 맥락에서 직무 요구-자원 이론은 자원기반이론과 시너지를 낼 수 있는 적절한 이론이 될 수 있다. 직무 요구-자원 이론에서 직무 요구는 선수 개인이 지닌 인지적/신체적 에너지를 소모하는 요인을 의미하며, 지나친 업무량이나 시간 압박, 불확실성 등을 포함한다. 직무 요구에 오랫동안 노출된 개인은 에너지 고갈로 인해 탈진(burnout)과 성과 저하를 경험한다. 직무 자원은 선수 개인의 에너지를 높이는 요인을 의미하며, 자율성이나 동료의 지지 등을 의미한다. 직무 자원의 공급은 이 자체로 성과를 높일 뿐만 아니라, 직무 요구의 부정적 효과를 감소하는 역할을 한다. 또한, 최근 직무 자원은 개인 자원과 상호작용하며 서로의 수준을 높이는 역할을 한다는 주장이 제기되기도 한다(Bakker & Demerouti, 2017, 2024; Bakker, Demerouti, & Sanz-Vergel, 2023; Demerouti & Bakker, 2023).
프로스포츠 선수들이 시즌 중 직면하는 가장 큰 요구는 통제할 수 없는 환경이라고 볼 수 있다. 선수들은 필연적으로 원정경기를 위해 익숙한 지역을 떠나 끊임없이 새로운 자극을 맞이한다. 익숙한 루틴에서 벗어나게 되는 경우 선수들은 주어지는 환경에 대해 새롭게 인지하고 해석하는 활동을 해야 하며, 일정으로 인한 피로와 시간 압박 때문에 에너지 소모에 대한 부담을 감수해야 한다(Smith & Semin, 2004; Sweller, 1988). 특히, 경기를 위한 이동 거리와 원정 기간이 길어지는 구간에는 지속해서 변화하는 외부 환경에 노출되며, 다가올 환경 변화를 기다리는 동안 가중되는 에너지 소모를 경험한다. 직무 요구-자원 이론의 모태가 되는 자원보존이론(conservation of resources theory)에 따르면, 인간은 에너지 소모를 예측하게 될 때 에너지 소모가 가속화되고 현재 에너지 소모를 줄이기 위해 자원을 탐색하는 활동을 줄이는 악순환(loss spiral)을 경험하게 된다(Hobfoll, 2001; Hobfoll & Shirom, 2000). 따라서, 스포츠 경기 결과 예측을 위해서는 선수들에게 직무 요구로 작용하는 원정경기를 위한 이동 거리와 원정경기 일정을 변수로 활용할 필요성이 존재한다.
프로스포츠팀의 전반적인 전력 수준과 외국인 선수는 자원기반이론의 핵심 역량이자 직무 요구-자원 이론의 직무 자원에 해당하며, 이들은 팀이 직면하게 되는 부정적인 환경의 효과를 낮춤으로써 스포츠 경기의 승리 가능성을 높일 수 있다. 만약 외국인 선수가 출전하기 힘든 상황을 인식하게 된다면, 국내 선수들은 팀이 가진 자원을 활용할 기회를 낮추게 된다는 부담과 공격 기회의 다양성을 잃게 된다. 외국인 선수의 출전에 대한 고려는 외국인 선수의 역할이 한국프로야구팀의 승률 결정요인이라는 것을 실증한 실증한 선행연구와도 일맥상통한다(김필수, 이상현, 2022a). 따라서, 외국인 선수의 결장 여부는 해당 경기의 결과 예측을 위한 필수적인 요인이라고 볼 수 있다.
이상의 논의를 기반으로 할 때, 스포츠 경기의 승패를 예측하기 위해서는 해당 팀의 전력과 관련된 변수 중 특히 양 팀 간의 전력 차이를 확인할 수 있는 변수들을 인공지능 알고리즘 모델에 투입하는 것이 중요하다. 하지만, 해당 변수만을 투입하는 것으로는 개별 경기의 승패를 예측하기에 부족하며, 선수단이 마주하고 직면하는 개별적인 상황적 요소나 이벤트를 반영할 필요가 있다. 특히, 선수단 전반의 에너지나 자원을 감소하는 경기 외적인 요인들을 추가하는 것이 경기 결과 예측 정확도를 높이는 데 결정적인 요인으로 작용할 수 있을 것으로 보인다.
본 연구에서는 이러한 체계적인 이론적 검토를 기반으로 프로스포츠팀의 전력 이외에도 외국인 선수의 결장 가능성, 원정 연전과 경기 간격을 포함한 경기 일정, 원정 이동 거리 등을 포함하고자 한다. 이를 한국프로농구의 실증분석을 통해 인공지능 알고리즘을 적용한 스포츠 경기 결과 예측 연구를 고도화하고 인공지능 모델 개발 및 효용성 검증을 진행하고자 한다.
연구방법
1.
연구대상
본 연구는 한국프로농구의 경기 결과를 예측하기 위해 다양한 변수들을 포괄적으로 고려하였다. 구체적으로, 팀과 선수의 경기 기록에 더해 외국인 선수의 출전 여부, 경기 일정, 위치 등을 고려하여 한국프로농구 경기 결과를 예측하였다. 이를 위한 연구대상으로 2017-18시즌부터 2023-24시즌까지 7개 시즌 동안의 경기 기록 및 일정, 외국인 선수의 출전 여부에 대한 데이터를 체계적으로 수집하였다. 한국프로농구 리그의 정규 시즌은 매년 리그를 구성하는 10개 팀이 54경기씩을 진행하여 총 270경기로 구성된다고 볼 수 있다. 다만, 코로나19의 영향으로 조기 종료된 2019-20시즌에는 213경기가 진행되었다.
한국프로농구 경기 기록은 KBL 공식 홈페이지(https://kbl.or.kr/)에서 제공하는 팀과 선수 단위의 기록을 활용하였다. Python(3.11.5)의 Selenium과 Request, BeautifulSoup 라이브러리를 활용하여 웹 크롤링을 진행하였으며 경기 일정과 경기 장소를 고려하여 “경기 간격”, “이동 거리”, “연속 원정경기”, “상대 전적” 등을 계산하였다. “외국인 선수 출전 여부”는 각 경기의 선수 기록에 외국인 선수의 출전 여부를 기준으로 파악하였다. <표 2>는 연구대상으로 활용한 시즌별 경기 수 및 참가 팀을 나타낸 것이다.
표 2.
연구대상 구단의 참가 경기 및 시즌 수
2.
연구변수
본 연구에서는 한국프로농구 경기 예측을 위하여 경기 기록, 경기 일정, 홈/원정, 이동 거리, 상대 전적, 외국인 선수의 출전 여부를 변수로 적용하였다. 경기 기록의 경우 KBL 공식 홈페이지에서 제공하는 1차 경기지표와 2차 경기지표를 활용하였으며 기록별 최다 기록선수의 기록, 쿼터별 득실점 역시 변수로 활용하였다. <표 3>은 본 연구의 실증분석에 적용된 KBL 경기 기록을 정리하여 나타낸 것이다.
표 3.
연구변수 – 경기 기록
이동 거리 및 경기 일정은 프로스포츠팀의 경기력에 유의미한 영향을 미친다(Charest, Samuels, Bastien, Lawson & Grandner, 2021; Cook, Charest, Walch & Bender, 2022). 경기 간격은 경기 일자 기준으로 직전 경기 일자와의 차이를 계산하여 적용하였다. 각 팀의 이동 거리를 확보하기 위하여 직전 경기의 경기장부터 다음 경기장까지의 거리를 파악하여 적용하였다. 예를 들어 정관장이 현대모비스와 원정경기를 치른 다음 날 안양 정관장 아레나에서 홈경기를 하게 된다면 경기 간격은 “1”, 이동 거리는 울산동천체육관과 안양 정관장 아레나 간의 거리로 설정하였다. <표 4>는 연구 기간 중 KBL 구단들의 홈구장을 정리한 것이다.
표 4.
KBL 구단별 홈구장
아시아 지역의 프로농구리그에서 외국인 선수는 팀의 핵심 역량으로 전력 수준에 큰 비중을 차지한다(Wang, Han, Zhang, Zhang, Lorenzo Calvo & Gomez, 2022; Yousef, Kayed & Liftawi, 2025). 이러한 맥락에서 외국인 선수가 출전하지 못하는 경우는 팀의 경기력을 크게 저해하는 요인으로 작용할 수 있다. 한국프로농구 리그는 연구 기간인 7시즌 동안 신장 제한이나 쿼터 별 출전 선수 등 제도적 변화가 있었으나, 보유할 수 있는 외국인 선수의 최대 인원은 2명으로 리그 규정의 변화 없이 유지되었다.
본 연구에서는 KBL 홈페이지에서 수집한 선수 기록을 기반으로 2명이라는 외국인 선수 활용 기준 대비 부상⋅컨디션⋅감독과의 불화 등의 이유로 경기에 출전하지 못한 선수의 수를 파악하였다. 2명의 외국인 선수가 모두 출전한 경기는 “0”, 1명의 외국인 선수만 출전한 경기는 “1”, 외국인 선수가 출전하지 않은 경우는 “2”로 표기하였다. <표 5>는 예시로 가장 최근 시즌인 2023-24시즌의 구단별 외국인 선수 명단과 출전명단에 등록된 횟수를 나타낸 것이다.
표 5.
KBL 2023-24시즌 외국인 선수 명단
3.
자료 처리
1)
데이터 전처리
본 연구에서는 한국프로농구 경기 결과를 예측하기 위해 경기 간격, 이동 거리, 외국인 선수 출전 여부 등을 적용함과 동시에 최근 경기 기록을 시즌 초반 경기 기록과 비교해 더욱 중요하게 고려하고자 하였다. 이를 위해 예측에 사용되는 경기 기록에서 최근 경기일수록 더욱 높은 가중치를 부여하는 방식을 적용하였다. 특정 팀의 n번째 경기를 예측하기 위해 해당 팀의 시즌 첫 번째 경기부터 직전 경기인 n-1 번째 경기까지의 경기 기록을 활용하였는데, 이때 시즌 첫 번째 경기는 1, 두 번째 경기는 2 ··· n-1 번째 경기는 n-1개의 행을 누적하여 경기 수에 비례하도록 가중치를 부여하였다. 누적된 경기 기록 데이터의 평균값은 n번째 경기 예측을 위한 특정팀의 전력을 나타내는 변수로 사용되었다. <표 6>은 최근 경기를 더욱 중요하게 고려하기 위하여 구축된 KCC의 23~24시즌 경기 기록 데이터세트를 나타낸 것이다.
2)
변수 선택 (Feature-Selection)
최근 경기에 가중치를 부여한 경기 기록과 이동 거리, 외국인 선수, 상대 전적, 경기 간격 등으로 구성된 데이터를 기반으로 KBL 경기 예측에 최적화된 변수 조합을 도출하기 위하여 단계 선택법(Step-wise)을 적용하였다. Python의 statsmodels 라이브러리를 활용하여 변수를 추가하거나 제거하는 기준치를 유의도(p-value) 0.05로 설정하여 진행한 결과 13개의 최적 변수 조합이 도출되었다. 경기 기록 변수 9개와 경기 일정, 이동 거리, 상대 팀과의 전적, 외국인 선수 관련 변수가 각각 1개씩 포함되었다. <표 7>은 단계 선택법을 통해 도출된 변수 13개를 나타낸 것이다.
3)
연구 절차
본 연구에서는 자원기반이론과 직무 요구-자원 이론의 통합적 적용을 통해 한국프로농구 경기 결과를 예측하기 위한 인공지능 모델 개발 및 효용성을 검증하는 차원에서 모멘텀, 상대성, 경기 일정 및 이동 거리, 외국인 선수를 고려한 데이터세트를 생성하여 홈팀과 원정팀의 변수를 병렬로 배치하고 같은 기록에 대한 양 팀의 차이를 “격차 변수”로 생성하였다. 생성된 데이터세트에 7가지 머신러닝 알고리즘과 “전체 변수”, “격차 변수”, “최적 변수 조합”을 각각 적용하여 총 21가지 머신러닝 모델에서 KBL 경기 결과를 예측하였다.
7가지 머신러닝 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 다층신경망, 서포트 벡터 머신, 그래디언트 부스팅, 엑스트라 트리, 랜덤 포레스트로 분류 문제에 적합한 알고리즘을 적용하였으며 승리는 “1”, 패배는 “0”으로 코딩하여 학습 및 테스트를 진행하였다. 학습데이터와 테스트 데이터는 무작위 샘플링을 통해 7:3의 비율로 나누었다. 가장 높은 성능을 나타낸 모델에 “이동 거리, 경기 일정, 외국인 선수” 관련 변수들을 배제하고 테스트하여 해당 변수들이 경기 결과 예측에 얼마나 주요하게 작용하는지를 확인하고자 하였다.
연구 결과
1.
머신러닝 모델 간 성능 비교
본 연구에서는 한국프로농구 경기를 예측하기 위해 최근 경기 가중치를 반영한 경기 기록과 경기 일정⋅이동 거리⋅상대 전적⋅외국인 선수 출전 등의 데이터를 기반으로 머신러닝 예측 모델의 성능을 비교 분석하였다. 7가지 머신러닝 알고리즘과 3가지 변수 조합을 적용하여 총 21개 예측 모델을 비교하였으며 성능평가 지표로는 정확도(Accuracy)를 사용하였다. 21개 예측 모델 가운데 예측 성능이 가장 높은 모델은 격차 변수를 적용한 서포트 벡터 머신과 최적 변수를 적용한 로지스틱 회귀 모델로 66.79%의 예측에 성공하였다.
전체 변수를 적용한 모델 중에서는 선형 서포트 벡터 머신이 65.03%로 가장 높은 성능을 보였으며 서포트 벡터 머신이 64.56%로 두 번째로 높은 정확도를 보였다. 랜덤 포레스트, 엑스트라 트리, 그래디언트 부스팅, 로지스틱 회귀, 다층신경망이 각각 62.15%, 61.78%, 61.22%, 59.00%, 54.92%로 뒤를 이었다. 격차 변수를 적용한 예측 모델에서는 서포트 벡터 머신의 뒤를 이어 엑스트라 트리 65.12%, 랜덤 포레스트 63.085의 정확도를 보였으며, 로지스틱 회귀, 그래디언트 부스팅, 선형 서포트 벡터 머신, 다층신경망이 각각 60.30%, 59.37%, 58.81%, 55.10%로 예측에 성공하였다.
최적 변수를 적용한 모델에서는 로지스틱 회귀에 이어 선형 서포트 벡터 머신 66.42%, 다층신경망 65.52%, 서포트 벡터 머신 65.12%, 그래디언트 부스팅 64.38%, 엑스트라 트리 62.89%, 랜덤 포레스트 62.34% 순으로 높은 예측 정확도를 보고하였다. <표 8>과 <그림 1>은 21개 예측 모델의 성능을 나타낸 것이다.
본 연구에서는 경기 일정 및 거리, 외국인 선수의 출전이 경기 결과 예측에 미치는 영향을 확인하기 위해 최적 변수 조합에서 “이동 거리”, “연속 원정경기 수”, “출전 불가 외국인 선수” 3가지 변수를 제외한 경기 기록과 상대 전적으로 구성된 10개 변수를 적용하여 경기 결과를 예측하고 그 성능을 최적 변수를 적용한 경우와 비교하였다. 가장 높은 성능을 보였던 로지스틱 회귀 모델은 이동 거리⋅연속 원정경기 수⋅출전 불가 외국인 선수를 제외한 10개 변수를 적용한 결과 예측 성능이 0.19% 저하된 66.60%의 정확도를 보였다. 선형 서포트 벡터 머신과 그래디언트 부스팅은 최적 변수 조합을 적용한 모델과 같은 각각 66.42%, 64.38%의 정확도로 예측에 성공하였다. 10개 변수 적용 시, 성능이 가장 큰 폭으로 하락한 모델은 다층신경망으로 65.12%에서 62.89%로 2.63% 하락하였으며 서포트 벡터 머신, 엑스트라 트리, 랜덤 포레스트 역시 각각 1.30%, 0.74%, 0.56%씩 낮은 정확도를 보였다. <표 9>와 <그림 2>는 최적 변수를 적용한 경우와 경기 기록 및 전적 변수만 적용한 경우의 머신러닝 알고리즘 기반 예측 모델의 성능 차이를 나타낸 것이다.
논의
본 연구는 스포츠 팬의 몰입도를 높이기 위한 스포츠 경기 결과 예측 분야의 학술적 기반을 제공하기 위한 목적으로 시행되었다. 인공지능과 빅데이터의 발전으로 스포츠 경기를 예측하는 연구가 증가하고 있는 현시점에서, 실제 경기에서 발생하는 변수를 고려하여 경기 결과를 예측하기 위한 메커니즘의 규명과 더불어 이론적 근거 정립의 중요성이 꾸준히 제기되었다. 본 연구에서는 이론적인 측면에서는 자원기반이론(resource-based theory)과 직무 요구-자원 이론(job demand-resource theory)을 통합적으로 적용하였다.
이를 바탕으로 한국프로농구 경기 결과 예측을 위한 인공지능 모델을 개발하고 효용성을 검증하기 위해 2017-18시즌부터 2023-24시즌 동안 치러진 1,833개의 경기를 분석 대상으로 하여 경기 결과를 예측하였다. 본 연구의 실증분석 결과, 로지스틱 회귀 알고리즘에 9개의 경기 기록 격차 변수(Fantasy Point, 상대 최다어시스트 선수 기록, 속공 득점, 벤치 득점 허용, 3점 시도 비율, 최다 연속 실점, 최다 연속 득점, 최다 리드 허용 폭, 야투 허용률) 및 상대 전적을 나타내는 변수와 경기 일정, 이동 거리, 외국인 선수 출전 불가 선수 숫자를 반영한 변수를 투입하였을 때 가장 높은 예측 정확도(66.79%)를 기록하였다. 본 연구는 경기 기록을 넘어 외부 상황적인 요인을 반영하여 한국프로농구 경기 결과의 실증을 바탕으로 가장 정밀하게 예측한 국내 최초의 연구로서 의의를 지닌다.
본 연구는 다음과 같은 이론적 시사점을 지닌다. 첫째, 예측이라고 하는 개념적 정의에 학문적으로 부합하는 방법으로 경기 결과를 예측하였다. 보다 구체적으로, 예측 개념의 근간이 되는 시간적 선행성(temporal precedence) 원칙에 입각한 진정한 의미의 인공지능 기반 스포츠 경기 결과 예측 모델을 구현함으로써 학문적 엄밀성을 확보하였다. 앞서 정리된 선행연구의 고찰을 통해 살펴보았듯이 인공지능을 활용하여 스포츠 경기 결과를 예측하는 연구가 수행되고 있으나, 대다수의 연구에서는 동일 시점에 독립변수와 종속변수를 인공지능 알고리즘에 투입하여 설명력을 보고하는 설명 혹은 추론 방식의 분석을 수행함으로써, “예측”과는 다소 거리가 있는 연구를 설계한 것으로 보인다(범쟁쟁, 이성노, 2023; 예원진, 이성노, 2022; 예원진, 이태현, 이성노, 2022; 조선미, 김주학, 강지연, 김상균, 2023; 최형준, 2022).
하지만, 경기 결과에 대한 예측이란 해당 경기가 발생하기 전에 수집할 수 있는 정보만을 바탕으로 분석을 진행하는 것이 핵심적이기 때문에 특별한 차원에서의 데이터 처리가 필요하다. 본 연구에서는 이러한 점을 명확하게 반영하기 위해 경기가 발생하기 전까지 확보할 수 있는 경기지표를 양 팀의 상성을 확인할 수 있는 방식으로 생성하고, 최근 각 팀의 경기력을 알 수 있도록 최근 경기 기록에 가중치를 부여하는 등 다양한 장치를 체계적으로 마련하여 학술적인 근거를 제시하였다.
아울러, 스포츠 경기 예측을 위한 분석의 예측 정확도는 일반적으로 추론을 위한 모델의 설명력보다 낮을 수밖에 없다. 이러한 측면에서 대다수의 선행연구에서는 추론을 위한 모델의 분석 결과에도 “예측”이라는 용어를 사용하였으며, 그 결과 높은 수준의 예측 정확도를 보고해왔다. 하지만, 본 연구는 예측이라고 하는 본래의 정의에 부합하는 방법으로 스포츠 팬이 본질에서 가장 궁금해하는 경기의 결과를 선행적으로 분석하였으며, 그 결과 한국프로농구 리그의 경기 결과를 현시점까지 가장 높은 수준의 정확도로 예측하였던 기존 연구(김필수, 이상현, 전성삼, 2025)를 상회하는 가장 높은 수준의 예측 정확도를 확보하였다. 이는 스포츠 경기 결과 예측에 부합하는 연구 분야의 기초를 세우고 다양한 방법론을 제시하는 측면에서 기여도를 높일 뿐만 아니라(김필수, 이상현, 서재현, 2024; 김필수, 이상현, 전성삼, 2024b; 김필수, 이상현, 전성삼, 2025), 국내 인공지능 적용 스포츠 애널리틱스 학문 분야의 정립에 중요한 이정표를 수립하였다는 측면에서 그 의의를 지닌다.
둘째, 본 연구에서는 기존 선행연구에서 일반적으로 적용된 경기지표 데이터의 범위를 넘어 제 스포츠 경기 시작 전 선수단이 직면하게 되는 외부 상황적 환경과 요소를 체계적으로 반영하여 분석을 시행하였다는 측면에서 의미를 지닌다. 경기지표로 미루어 짐작할 수 있는 각 프로스포츠팀의 전력 수준은 정규리그를 구성하는 팀들의 한 시즌 전체적인 레이스와 수렴될 수 있는 순위를 거시적으로 예측하는 데 분명한 도움이 될 수 있다. 하지만, 개별 경기의 정밀한 승패 예측은 팀의 전력만으로는 정확하게 예상하기 어렵다고 본다. 경기 당일 해당 팀의 가용 전력, 선수의 컨디션, 이동 거리, 홈-원정 여부, 선수단 분위기 등이 내재적인 경기력에 영향을 미칠 수 있다. 이러한 측면에서 스포츠 경기 결과 예측을 위한 인공지능 모델 개발과 효용성을 검증하기 위해서는 명확한 이론적 근거에 따라 추가적인 변수의 도입이 절대적으로 필요하다고 본다.
이를 위해 본 연구에서는 팀의 경기지표 외에도 경기 일정, 이동 거리, 외국인 선수 출전 불가 선수 등과 같은 경기 당일 팀의 경기력과 직결되는 변수들을 생성하여 외부적 환경과 내부 전력을 반영하였다. 이러한 변수는 아직 국내 스포츠 경기 결과 예측 연구에서 도입한 적이 없는 변수들로써 선수단이 실제로 직면하여 마주할 수 있는 현실적인 상황 요소를 반영한다고 볼 수 있다. 그 결과 해당 변수들을 인공지능 알고리즘에 투입하여 학습시키게 될 경우, 각 프로스포츠팀이 경기에 앞서 자신들의 능력을 최대한 반영할 수 있는가를 알 수 있다. 이는 스포츠 경기 결과 예측을 위한 새로운 방법론을 도입하였다는 점에서 의의가 있다.
셋째, 본 연구는 프로스포츠팀의 경기력을 설명할 수 있는 자원기반이론과 직무 요구-자원 이론을 통합적으로 적용하여 인공지능 기반 스포츠 경기 승패 예측 모델을 개발하고 그 효용성을 검증하였다. 최근 인공지능을 활용하여 경기 결과를 예측(또는 설명)하는 연구들이 폭발적으로 증가하고 있다. 대부분의 이런 선행연구에서는 단순히 어떤 방식으로 데이터세트를 구성하거나 특정 변수를 알고리즘에 투입하였을 때 나타나는 예측 정확도나 설명량을 보고하는 데 그치는 경향을 지닌다(김필수, 이상현, 2024). 하지만, 연구 분야의 고도화와 발전을 위해서는 해당 결과가 어떤 의미를 지니는지에 대한 명확한 규명이 반드시 전제되어야 한다. 인공지능이 투입한 변수의 우선순위나 가중치를 결정하지만, 데이터를 어떤 방식으로 구성하고 어떤 변수를 생성하여 투입할지는 연구자의 판단에 달려있다(Baio & Blangiardo, 2010; Doshi-Velez & Kim, 2017; Lundberg, & Lee, 2017; Rudin, 2019). 따라서, 어떤 이유로 특정 데이터를 생성하는지의 추론 과정이 필요하며, 학문의 점진적 발전을 위해서도 이론적 접근이 필요하다.
본 연구는 이를 위해 최근 프로스포츠팀의 성과를 설명하기 위해 자주 활용되는 이론 중 하나인 자원기반이론(Kim, 2022)을 바탕으로, 조직 심리학에서 중요한 이론으로 부상하고 있는 직무 요구-자원 이론을 결합하여 본 연구의 변수와 스포츠 경기 결과 예측을 위한 관계를 설명하였다. 프로스포츠팀은 승패가 결정되는 하나의 분석단위임과 동시에, 선수 간의 역동으로 이루어지는 분석단위이다. 따라서 스포츠팀에 대한 분석을 위해서는 스포츠팀이 가진 복합적 측면이 입체적으로 고려되어야 한다. 자원기반이론은 조직 구성원을 조직이라고 하는 단위의 하위 요인으로 가정하지만, 직무 요구-자원 이론은 조직을 구성원들의 상위 개념으로 가정한다. 또한 개별 이벤트 역시 개인의 경험과 현 상태(current state)를 구성하는 요인으로 판단한다. 따라서, 직무 요구-자원 이론은 프로스포츠팀이 마주하는 외부 상황으로 인해 선수들이 겪게 되는 정신적/신체적 에너지 수준과 이로 인한 집합적인 성과를 설명하기에 적절하다(Lee, 2024). 본 연구는 스포츠 분야에서 인공지능을 활용하여 경기 결과 예측을 진행하기 위한 변수 선정을 위해 자원기반이론과 직무 요구-자원 이론을 통합적으로 적용하여 이론화한 최초의 연구로서 그 학문적 가치가 존재한다.
이에 더해, 본 연구는 다음과 같은 실무적 시사점을 지닌다. 첫째, 본격적인 스포츠 AI와 빅데이터의 시대에 한국농구연맹을 비롯하여 프로스포츠 리그 운영 주체인 협회나 연맹은 본 연구에서 실증된 인공지능 알고리즘 적용 스포츠 경기 결과 예측 정보를 스포츠 팬 몰입의 마중물로 활용할 수 있는 정책 입안과 의사결정이 필요하다고 본다. 인공지능의 스포츠산업 적용 범용성이 증가하면서 경기 결과 예측 정보를 스포츠 마케팅 차원에서 도입하게 되면 스포츠 팬 몰입과 경험, 팬 커뮤니케이션 활성화와 적극적인 관람 유도를 통한 리그 가치의 활성화와 재관람 촉진 및 산업 활성화에 긍정적인 영향을 미칠 수 있다.
둘째, 프로스포츠 협회나 연맹은 경기 관련 데이터 제공을 확대하기 위한 노력은 물론 다양한 스포츠 콘텐츠 정보를 제공하기 위해 최선의 노력을 다해야 할 것으로 보인다. 최근 한국프로농구연맹은 홈페이지 개편을 통해 과거보다 더 정교하고 다양한 경기지표를 공개하여 제공하기 시작하였다. 이는 NBA와 MLB 등 선진 리그의 팬 중심 데이터 제공 전략과 일치하며 이를 통한 팬 몰입과 커뮤니케이션을 활성화하는 맥락에서 긍정적으로 평가될 수 있다. 본 연구에서도 한국프로농구의 최신 데이터를 활용하여 실증분석을 진행함으로써 기존의 선행연구 대비 국내에서는 가장 높은 선행적 경기 결과의 예측 정확도를 확보할 수 있었다. 이러한 선진화된 데이터 공개는 단순히 스포츠 경기 결과 예측에 그치지 않고, 팬들이 경기를 더 깊이 이해하고 즐길 수 있는 다양한 콘텐츠 생성과도 밀접하게 연결될 수 있다(이상현, 전성삼, 김필수, 2024).
최근 프로야구경기 기록을 축적하고 공개하는 플랫폼인 스탯티즈에서도 기존의 경기 기록을 개선하려고 노력하고 있다는 공지를 냈지만, 아직 MLB와 비교했을 때 여전히 글로벌 패러다임에 미치지 못하는 실정이다. 그러나 이러한 노력은 스포츠팬들이 해당 스포츠에 몰입하고 이해를 높이는 데 이바지할 것으로 보이며 스포츠 현장에서도 더 다양한 데이터를 체계화하고 공개하려는 시도가 중요하다고 본다.
셋째, 각 프로스포츠 구단은 본 연구의 실증결과를 활용하여 스포츠 경기 이벤트를 관리하거나 개별 경기나 시즌을 운영하는 데 있어 전술적 활용이 가능할 것으로 보인다. 본 연구에서는 경기의 승패에 영향을 미치는 경기지표와 상황적 요인들을 설명하였으며, 프로스포츠 구단에서는 이러한 요인들에 대해 최적화된 전략적 의사결정 차원에서 관리하여 승리 가능성을 높이는 데 적극적으로 인공지능 모델 활용도를 높일 수 있다. 또한, 스포츠 경기 이벤트를 담당하는 마케팅 부서 등은 승리 가능성에 따라 마케팅 커뮤니케이션 전략을 관리하여 예산을 효율적으로 배분함으로써 효과적인 조직 운영에 활용할 수 있을 것으로 기대한다.
넷째, 본 연구의 중요한 실무적 시사점으로 스포츠베팅 활성화를 통한 스포츠산업 확장의 실질성에 있다. 스포츠베팅은 기존 스포츠 콘텐츠를 활용하여 분석 전문가, 마케팅 전문가, 스포츠 콘텐츠 전문가 등을 고용함으로써 산업적 파급 효과를 창출한다. 비교적 최근인 2023년에 허구연 KBO 총재가 문화체육관광위원회 국정감사 자리에서 스포츠베팅을 장려하는 방안을 마련하는 것이 중요하다는 것을 역설한 것과 궤를 같이한다. 이를 통해 스포츠토토나 국민체육진흥공단의 경륜 경정 베팅을 통해 국민체육진흥기금을 조성함으로써 국가 스포츠 재정의 상당 부분을 담당하여 스포츠 저변을 확대할 뿐 아니라, 스포츠베팅 참여 팬의 몰입도를 높여 해당 스포츠 경기의 가치를 높이는 역할을 할 수 있다. 본 연구는 이러한 측면에서 스포츠베팅의 활성화에도 도움이 될 수 있는 참고자료의 기능이 있으며, 이를 통해 스포츠산업의 성장에 도움이 될 것으로 기대한다.
결론 및 제언
본 연구는 인공지능을 활용하여 한국프로농구 경기 결과 예측 모델을 개발하고 그 효용성을 검증한 연구로, 각 프로스포츠팀의 전력을 반영하는 경기지표뿐만 아니라 자원기반이론과 직무 요구-자원 이론을 통합적으로 적용하여 상황적 요인을 대리하는 변수를 생성하고 투입한 연구로서 이론적 가치를 지닌다. 이러한 시도는 실제 프로스포츠팀이 직면하여 마주할 수 있는 각 팀의 승리 가능성에 변동을 줄 수 있는 요인을 설정하여, 스포츠 현장에서 활용할 수 있는 방안을 제안하였다는 점에서 연구적 가치를 지닌다.
이를 위해, 본 연구는 한국프로농구(KBL)를 중심으로 2017~18시즌부터 2023~24시즌까지 진행된 1,833개 경기데이터를 전처리하여 경기지표, 일정, 선수 결장, 경기장 정보 등 기존의 선행연구에서 검증되지 않은 다양한 변수를 수집하여 본 연구에 적용하였다. 방법론적으로 7가지 인공지능 알고리즘인 로지스틱 회귀, 서포트 벡터 머신, 다층 퍼셉트론, 그래디언트 부스팅, 엑스트라 트리, 랜덤 포레스트 등을 실제 경기 결과 예측에 활용하여 실증분석을 진행하였다. 분석 결과, 변수 선택법에 의거 판타지 포인트 차이, 상대 팀 최다어시스트 선수 기록 격차, 양 팀의 속공 득점 차이, 양 팀의 벤치 실점 허용 차이 등 13개 최적 변수를 조합하고 로지스틱 회귀 알고리즘을 적용했을 때 가장 높은 예측 정확도(66.79%)를 달성하였다.
향후 연구에서는 본 연구를 토대로 다양한 변수와 상황을 추가 고려하여 스포츠 애널리틱스 발전과 미래가치 창출에 더욱 기여할 수 있을 것으로 예상한다. 첫째, 프로스포츠 연구에 있어 외국인 선수의 역할을 더욱 세분화하여 더욱 정밀한 실증분석을 통한 예측 정밀도의 향상을 기대해볼 수 있다. 본 연구에서는 한국프로농구의 실증 차원에서 프로스포츠팀이 보유한 외국인 선수 두 명 모두를 같은 비중으로 처리하였다. 하지만, 외국인 선수는 1 옵션과 2 옵션으로 구분할 수 있으며, 이들의 출전 시간과 구단이 기대하는 역할 역시 차이가 존재한다. 따라서, 향후 연구에서는 외국인 선수의 역할을 구분하여 분석을 진행한다면, 인공지능 알고리즘 적용 스포츠 경기 결과 예측의 정밀도를 더욱 높일 수 있을 것으로 기대한다.
둘째, 아시아 쿼터 선수의 데이터 통합 및 선수 경기력의 영향력에 대한 정밀한 고려가 필요하다. 한국프로농구에서 아시아 쿼터 선수는 또 다른 형태의 외국인 선수로 간주할 수 있으며, 해당 선수들은 국내 선수와는 다른 전략적 임무를 코트 내에서 수행할 수 있다. 현재 실증분석에 포함되지 않은 24~25시즌에는 아시아 선수들의 역할이 과거보다 한층 더 중요해진 것으로 보인다. 하지만, 아시아 쿼터 선수가 한국프로농구에서 활약한 지 얼마 되지 않았기 때문에 인공지능을 활용해서 분석하기에는 아직 누적된 데이터가 충분하지 않다. 향후 이들의 데이터를 분석에 활용하기에 충분한 시점이 될 때, 이들의 데이터도 반영하여 분석을 진행한다면, 더욱 의미 있는 연구의 고도화가 이루어질 수 있을 것으로 기대된다.
셋째, 주요 국내 선수의 최근 컨디션 혹은 출장 가능 여부 등을 반영하여 분석에 활용할 수 있을 것으로 판단된다. 국내 선수들 역시 경기 승패에 중요한 역할을 하는 대체 불가 선수들이 존재하며, 이들의 출전 여부는 양 팀 모두의 경기 흐름에 영향을 미칠 수 있다. 예를 들어, 선수 개인의 최근 3경기 평균 득점, 어시스트, 리바운드 등의 지표 변화를 활용하거나, 구단 공식 발표 또는 언론 보도를 통해 공개된 선수 부상 정보를 활용하는 방안을 고려할 수 있다. 이러한 체계성에 바탕을 둔 입체적인 고찰에 기반한 연구를 향후 진행하면, 우리나라 인공지능 기반 스포츠 애널리틱스의 수준 역시 한 단계 더 높은 수준으로 올라설 수 있을 것으로 기대한다.

